LLM 기반 질문 생성 방법 - Multi-hop 과 Multi-passage 의 차이점

Multi-hop 질문 생성은 LLM이 여러 단계의 추론이나 여러 소스의 정보를 연결해야만 답할 수 있는 질문을 만드는 기법입니다. 단순히 하나의 문장이나 단락에서 답을 찾는 것이 아니라, 여러 정보를 '뛰어넘어(hop)' 최종 답에 도달하도록 설계된 질문입니다.

이는 특히 RAG(Retrieval Augmented Generation) 시스템에서 중요한데, 사용자의 복잡한 질문에 답하기 위해 여러 문서를 검색하고, 각 문서에서 찾은 정보를 연결하여 최종 답변을 생성하는 LLM의 능력을 효과적으로 테스트하고 향상시킬 수 있기 때문입니다.

1. Multi-hop (멀티홉):

"두 개 이상의 연속된 정보를 이용해서 대답해야 하는 질문"

정보 간의 논리적 연결 또는 추론 단계에 초점이 맞춰져 있습니다. 답을 찾기 위해 A라는 정보에서 B라는 정보를 얻고, B에서 C를 얻는 식으로 여러 단계를 거쳐야 합니다. 각 단계는 이전 단계의 정보에 의존할 수 있습니다.

Multi-hop 예시:

2. Multi-passage (멀티패시지)

"정답 단락이 두 개 이상인 질문"

답변에 필요한 정보가 문서 내 또는 여러 문서의 여러 위치(단락, passage)에 분산되어 있다는 사실에 초점이 맞춰져 있습니다. 답을 얻기 위해 여러 단락을 찾아야 하지만, 이 단락들이 반드시 논리적으로 연속된 추론 단계를 구성하지는 않을 수 있습니다. 여러 조각의 정보를 모아 하나의 완전한 답을 구성하는 데 중점을 둡니다.

Multi-passage예시:

핵심 차이 요약

물론, 실제 복잡한 질문 중에는 Multi-hop이면서 동시에 Multi-passage인 경우도 많습니다. 즉, 답을 찾기 위해 여러 단계의 추론이 필요한데, 그 각 단계에 필요한 정보가 또 여러 단락에 흩어져 있는 경우죠.

LLM 기반 질문 생성에서 Multi-hop과 Multi-passage 기법을 사용하는 것은 모델이 단순한 정보 추출을 넘어, 복잡한 정보 탐색 및 통합 능력을 갖추도록 훈련하고 평가하는 데 필수적입니다.
#RAG
#Multi-hop